Neural Radiance Fields (NeRFs) encode the radiance in a scene parameterized by the scene's plenoptic function. This is achieved by using an MLP together with a mapping to a higher-dimensional space, and has been proven to capture scenes with a great level of detail. Naturally, the same parameterization can be used to encode additional properties of the scene, beyond just its radiance. A particularly interesting property in this regard is the semantic decomposition of the scene. We introduce a novel technique for semantic soft decomposition of neural radiance fields (named SSDNeRF) which jointly encodes semantic signals in combination with radiance signals of a scene. Our approach provides a soft decomposition of the scene into semantic parts, enabling us to correctly encode multiple semantic classes blending along the same direction -- an impossible feat for existing methods. Not only does this lead to a detailed, 3D semantic representation of the scene, but we also show that the regularizing effects of the MLP used for encoding help to improve the semantic representation. We show state-of-the-art segmentation and reconstruction results on a dataset of common objects and demonstrate how the proposed approach can be applied for high quality temporally consistent video editing and re-compositing on a dataset of casually captured selfie videos.
translated by 谷歌翻译
从数字艺术到AR和VR体验,图像编辑和合成已经变得无处不在。为了生产精美的复合材料,需要对相机进行几何校准,这可能很乏味,需要进行物理校准目标。代替传统的多图像校准过程,我们建议使用深层卷积神经网络直接从单个图像中直接从单个图像中推断摄像机校准参数,例如音高,滚动,视场和镜头失真。我们使用大规模全景数据集中自动生成样品训练该网络,从而在标准L2误差方面产生了竞争精度。但是,我们认为将这种标准误差指标最小化可能不是许多应用程序的最佳选择。在这项工作中,我们研究了人类对几何相机校准中不准确性的敏感性。为此,我们进行了一项大规模的人类感知研究,我们要求参与者以正确和有偏见的摄像机校准参数判断3D对象的现实主义。基于这项研究,我们为摄像机校准开发了一种新的感知度量,并证明我们的深校准网络在标准指标以及这一新型感知度量方面都优于先前基于单像的校准方法。最后,我们演示了将校准网络用于多种应用程序,包括虚拟对象插入,图像检索和合成。可以在https://lvsn.github.io/deepcalib上获得我们方法的演示。
translated by 谷歌翻译
元学习是一项研究线,它可以发展出利用过去的经验来有效解决新的学习问题的能力。元强化学习(META-RL)方法证明了学习行为的能力,这些行为有效地获取和利用了几个Meta-RL问题中的信息。在这种情况下,Wang等人提出了炼金术基准。 [2021]。炼金术具有丰富的结构性潜在空间,对最新的无模型RL方法具有挑战性。这些方法无法学会正确探索然后利用。我们开发了一种基于模型的算法。我们训练一个模型,其主要块是适合符号炼金术环境动力学的变压器编码器。然后,我们使用树搜索方法定义了通过学习模型的在线计划者。该算法在符号炼金术问题上显着优于先前应用的无模型RL方法。我们的结果揭示了基于模型的方法与在线计划在Meta-RL中成功执行探索和剥削的相关性。此外,我们展示了变压器体系结构的效率,以学习来自元RL问题中存在的潜在空间产生的复杂动力学。
translated by 谷歌翻译
内窥镜检查是空心器官内最广泛使用的癌症和息肉检测的医疗技术。但是,由于启蒙源方向,内窥镜获得的图像经常受到照明人工制品的影响。当内窥镜的光源姿势突然变化时,存在两个主要问题:产生过度曝光和不受欢迎的组织区域。这两种情况可能导致因影响区域缺乏信息而导致误诊,或者在非侵入性检查过程中使用了各种计算机视觉方法的性能(例如,大满贯,运动结构,光流,光流)。这项工作的目的是两倍:i)引入一种由生成对抗技术生成的新合成生成的数据集和ii),并探索在过度暴露和未渗透的照明中探索基于浅层和深度学习的基于浅的基于学习的图像增强方法条件。除了在7.6 fps左右的运行时间外,还通过基于深网的LMSPEC方法获得了最佳定量结果(即基于公制的结果)
translated by 谷歌翻译
在此贡献中,我们使用一种合奏深度学习方法来组合两个单个单阶段探测器(即Yolov4和Yolact)的预测,目的是检测内窥镜图像中的伪像。这种整体策略使我们能够改善各个模型的鲁棒性,而无需损害其实时计算功能。我们通过训练和测试两个单独的模型和各种集合配置在“内窥镜伪影检测挑战”数据集中证明了方法的有效性。广泛的实验表明,在平均平均精度方面,合奏方法比单个模型和以前的作品的优越性。
translated by 谷歌翻译
当前深度学习方法的许多应用程序的警告是需要大规模数据。Kolmogorov复杂性结果提出的一种改进是将最小描述长度原理与计算通用模型应用。我们研究了这种方法原则上可以带来的样品效率的潜在提高。我们使用多项式时间图灵机代表计算上的通用模型和布尔电路,以表示作用于有限精确数字的人工神经网络(ANN)。我们的分析解散了我们的问题与计算复杂性结果之间的直接联系。我们在使用图灵机而不是ANN应用的MDL之间的样品效率上提供了下限和上限。我们的界限取决于要学习的布尔函数的输入的位尺寸。此外,我们重点介绍了电路复杂性的经典开放问题与这些问题的紧密关系之间的密切关系。
translated by 谷歌翻译
在机器学习或统计中,通常希望减少高维空间$ \ mathbb {r} ^ d $的数据点样本的维度。本文介绍了一种维度还原方法,其中嵌入坐标是作为半定程序无限尺寸模拟的溶液获得的正半定核的特征向量。这种嵌入是自适应和非线性的。我们对学习内核的弱者和强烈的平滑假设讨论了这个问题。我们的方法的主要特点是在两种情况下存在嵌入坐标的样本延伸公式。该外推公式产生内核矩阵的延伸到数据相关的Mercer内核功能。我们的经验结果表明,与光谱嵌入方法相比,该嵌入方法对异常值的影响更加稳健。
translated by 谷歌翻译